Flux
Est un modèle texte-image développé par Black Forest Labs, basé à Fribourg-en-Brisgau, Allemagne. Black Forest Labs se fonde sur d’anciens employés de Stability AI. Comme les autres modèles de texte en image, Flux génère des images à partir de descriptions guidées en langage naturel, appelées prompts.
1-Histoire
Black Forest Labs se fonde en 2024 par Robin Rombach, Andreas Blattmann et Patrick Esser, d’anciens employés de Stability AI. Les trois fondateurs travaillent auparavant sur la génération d’images par intelligence artificielle à l’Université Louis-et-Maximilien de Munich en tant qu’assistants de recherche sous la direction de Björn Ommer. Ils publient leurs résultats de recherche sur la génération d’images en 2022, ce qui conduit à la création de Stable Diffusion. Les investisseurs dans Black Forest Labs incluent la société de capital-risque Andreessen Horowitz, Brendan Iribe, Michael Ovitz, Garry Tan et Vladlen Koltun. L’entreprise reçoit un investissement initial de 31 million.
En août 2024, Flux s’intègre dans le chatbot Grok développé par xAI et se rend disponible en tant que fonctionnalité premium sur X. Grok change ensuite pour son propre modèle de texte en image Aurora en décembre 2024.
Le 18 novembre 2024, Mistral AI annonce que son chatbot Le Chat intègre Flux Pro en tant que modèle de génération d’images.
Le 21 novembre 2024, Black Forest Labs annonce le lancement de Flux.1 Tools, une suite d’outils d’édition conçus pour être utilisés en complément des modèles Flux existants. Les outils comprennent Flux.1 Fill pour la inpainting et l’outpainting, Flux.1 Depth pour un contrôle basé sur la carte de disparité extraite des images d’entrée et des prompts, Flux.1 Canny pour un contrôle basé sur la détection des contours via filtre de Canny extraits des images d’entrée et des prompts, et Flux.1 Redux pour le mélange des images d’entrée existantes et des prompts. Chaque outil est disponible en version Dev et Pro.
En janvier 2025, Black Forest Labs annonce un partenariat avec Nvidia pour l’inclusion des modèles Flux en tant que modèles de base pour la microarchitecture Blackwell de Nvidia. L’entreprise annonce également le lancement de Flux Pro Finetuning API, conçu pour la personnalisation et le réglage fin des images générées par Flux, et un partenariat avec la société médiatique allemande Hubert Burda Media pour l’utilisation de Flux Pro dans le cadre de la création de contenu.
2-Les modèles
Flux est une série de modèles de texte en image. Les modèles se basent sur une architecture hybride qui combine des blocs de transformateurs de diffusion multimodaux et parallèles, mis à l’échelle à 12 milliards de paramètres. Les modèles se publient sous différentes licences, avec Schnell (signifiant “rapide” en langue allemande) publié en tant que logiciel open-source sous Licence Apache, Dev publié en tant que logiciel à source ouverte sous une licence non commerciale, et Pro publié en tant que logiciel propriétaire et uniquement accessible via une API pouvant être licenciée par des utilisateurs tiers. Les utilisateurs conservent la propriété des résultats générés, quel que soit le modèle utilisé.
Les modèles se présentent soit en ligne, soit localement en utilisant des interfaces utilisateur d’IA générative telles que ComfyUI et Stable Diffusion WebUI Forge (un fork de Automatic1111 WebUI).
Un modèle phare amélioré, Flux 1.1 Pro, se publie le 2 October 2024. Deux modes additionnels se voient ajoutés le 6 November, Ultra qui peut générer des images à une résolution quatre fois supérieure et jusqu’à 4 mégapixels sans affecter la vitesse de génération, et Raw qui peut générer des images hyper-réalistes dans le style de la photographie candide.
En relation avec Flux se trouve le Modèle textuel-vidéo SOTA, en cours de développement en 2024.
3-Accueil
Selon un test effectué par Ars Technica, les résultats générés par Flux.1 Dev et Flux.1 Pro se comparent à DALL-E 3 en termes de fidélité aux prompts, avec un photoréalisme proche de Midjourney 6 et des mains humaines générées avec plus de cohérence par rapport aux modèles précédents tels que Stable Diffusion XL.
Flux fait l’objet de critiques pour ses images générées très réalistes. Selon des reportages médiatiques, les représentations vont d’une image de Donald Trump posant avec des armes à des scènes troublantes, ce qui déclenche des discussions sur les implications éthiques des technologies développées par Black Forest Labs.
Après le lancement du modèle, les réseaux sociaux X se voient inonder d’images générées par Flux. Black Forest Labs ne fournit pas de détails exacts sur les données utilisées pour entraîner le modèle. Ars Technica soupçonne que Flux se fonde sur une vaste collection non autorisée d’images récupérées sur le Web, une pratique controversée avec des conséquences juridiques potentielles.
Source: Wikipédia sous licence CC-BY-SA 3.0.